#normalización global

Estabilizando destilación on-policy para razonamiento MLLM

Descubre cómo la normalización global estabiliza la destilación on-policy en modelos multimodales, mejorando el razonamiento y evitando explosiones de gradiente.

2026-06-09 · 2 min